Introducción

Tema de Investigación

Impacto de los escándalos de corrupción en el desempeño electoral de partidos políticos en elecciones regionales en Perú (2018)

Justificación del Tema

La corrupción afecta la confianza en las instituciones. Analizar si los votantes penalizan la corrupción electoralmente permite entender el nivel de madurez cívica en contextos democráticos. En el plano práctico, Perú ha atravesado numerosos escándalos de corrupción entre 2011 y 2018, que involucraron tanto a partidos nacionales como a movimientos regionales. Evaluar si esos escándalos afectaron el voto en las elecciones regionales de 2018 ayuda a comprender mejor el comportamiento electoral y la eficacia del control ciudadano.Esta investigación busca explorar si las organizaciones políticas involucradas en corrupción obtienen menor apoyo electoral.

Variable dependiente

  • Desempeño electoral (votos_validos): cantidad de votos válidos obtenidos por organización política

Variables independientes

  1. Involucramientos en corrupción (involucrado_corrupcion)
  2. Antigüedad del partido (antiguedad)
  3. Tipo de organización (tipo_organizacion)
  4. Participación anterior en elecciones (participacion_previa)
  5. Presencia en múltiples regiones (presencia_multiregion)

Variable de control

  1. Nivel de urbanización de la región (nivel_urbanizacion)
  2. Tamaño del padrón electoral (padron_electoral)
  3. Nivel de educación promedio regional(educacion_promedio)

Pregunta de Investigación

¿Los partidos políticos y movimientos regionales involucrados en escándalos de corrupción obtuvieron peores resultados electorales en las elecciones regionales de 2018 en Perú?

Hipótesis

Los partidos o movimientos regionales vinculados a escándalos de corrupción previos a 2018 recibieron una menor proporción de votos en las elecciones regionales de ese año, en comparación con aquellos que no estuvieron involucrados.

Metodología

Se utilizaron técnicas de análisis descriptivo, regresión lineal, análisis factorial y clusterización, a partir de una base consolidada de datos públicos.

Limpieza de la base de datos

Rows: 315
Columns: 13
$ organizacion_politica  <chr> "MOVIMIENTO REGIONAL FUERZA AMAZONENSE", "MOVIM…
$ departamento           <chr> "Amazonas", "Amazonas", "Amazonas", "Amazonas",…
$ votos_validos          <dbl> 24.43, 9.56, 45795.00, 24.91, 9.28, 5.15, 3.94,…
$ votos_emitidos         <dbl> 18.73, 7.33, 13.83, 45919.00, 45998.00, 3.95, 4…
$ total                  <dbl> 41358, 16188, 30545, 42166, 15715, 8721, 6662, …
$ involucrado_corrupcion <dbl> 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0,…
$ antiguedad             <dbl> 2, 2, 2, 2, 2, 3, 3, 3, 2, 2, 3, 3, 2, 1, 3, 3,…
$ tipo_organizacion      <dbl> 2, 2, 2, 2, 2, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1,…
$ participacion_previa   <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1,…
$ presencia_multiregion  <dbl> 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1,…
$ nivel_urbanizacion     <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,…
$ padron_electoral       <dbl> 290266, 290266, 290266, 290266, 290266, 290266,…
$ educacion_promedio     <dbl> 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.0, 9.6, 9.…

Análisis Descriptivo

Distribución de votos válidos

Tabla general

Estadísticas generales

 votos_validos      involucrado_corrupcion   antiguedad    participacion_previa
 Min.   :    0.00   Min.   :0.0000         Min.   :1.000   Min.   :0.0000      
 1st Qu.:    2.28   1st Qu.:0.0000         1st Qu.:2.000   1st Qu.:1.0000      
 Median :    6.36   Median :0.0000         Median :3.000   Median :1.0000      
 Mean   : 7714.17   Mean   :0.3587         Mean   :2.378   Mean   :0.8762      
 3rd Qu.:   19.00   3rd Qu.:1.0000         3rd Qu.:3.000   3rd Qu.:1.0000      
 Max.   :46004.00   Max.   :1.0000         Max.   :3.000   Max.   :1.0000      
 educacion_promedio
 Min.   : 8.200    
 1st Qu.: 8.900    
 Median : 9.400    
 Mean   : 9.579    
 3rd Qu.: 9.900    
 Max.   :11.200    

Análisis Bivariado

Correlaciones con votos válidos

Gráficos de dispersión


Modelos de Regresión

Modelo lineal simple


Call:
lm(formula = votos_validos ~ involucrado_corrupcion, data = data)

Residuals:
   Min     1Q Median     3Q    Max 
 -8169  -8166  -8145  -6890  39103 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)                8169       1209   6.759  6.8e-11 ***
involucrado_corrupcion    -1268       2018  -0.629     0.53    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 17180 on 313 degrees of freedom
Multiple R-squared:  0.00126,   Adjusted R-squared:  -0.00193 
F-statistic: 0.395 on 1 and 313 DF,  p-value: 0.5301

Modelo múltiple


Call:
lm(formula = votos_validos ~ involucrado_corrupcion + antiguedad + 
    participacion_previa + educacion_promedio + nivel_urbanizacion + 
    padron_electoral, data = data)

Residuals:
   Min     1Q Median     3Q    Max 
-11407  -8901  -7465  -4744  44697 

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)
(Intercept)            -1.706e+03  1.770e+04  -0.096    0.923
involucrado_corrupcion -9.231e+02  2.119e+03  -0.436    0.663
antiguedad             -1.311e+03  2.197e+03  -0.597    0.551
participacion_previa    1.288e+03  4.548e+03   0.283    0.777
educacion_promedio      1.790e+03  2.159e+03   0.829    0.408
nivel_urbanizacion     -2.096e+03  2.178e+03  -0.962    0.337
padron_electoral       -1.079e-03  6.846e-04  -1.576    0.116

Residual standard error: 17190 on 308 degrees of freedom
Multiple R-squared:  0.01575,   Adjusted R-squared:  -0.003422 
F-statistic: 0.8215 on 6 and 308 DF,  p-value: 0.5539

Análisis Factorial y Clúster

Análisis factorial

Factor Analysis using method =  ml
Call: fa(r = fa_data, nfactors = 2, rotate = "varimax", fm = "ml")
Standardized loadings (pattern matrix) based upon correlation matrix
                         ML2   ML1    h2    u2 com
involucrado_corrupcion  0.00  0.21 0.045 0.955   1
antiguedad              0.01  1.00 0.995 0.005   1
participacion_previa   -0.07  0.75 0.564 0.436   1
educacion_promedio      0.99 -0.03 0.978 0.022   1
nivel_urbanizacion      0.83 -0.01 0.685 0.315   1
padron_electoral        0.52 -0.05 0.276 0.724   1

                       ML2  ML1
SS loadings           1.94 1.60
Proportion Var        0.32 0.27
Cumulative Var        0.32 0.59
Proportion Explained  0.55 0.45
Cumulative Proportion 0.55 1.00

Mean item complexity =  1
Test of the hypothesis that 2 factors are sufficient.

df null model =  15  with the objective function =  2.34 with Chi Square =  728.85
df of  the model are 4  and the objective function was  0.05 

The root mean square of the residuals (RMSR) is  0.04 
The df corrected root mean square of the residuals is  0.07 

The harmonic n.obs is  315 with the empirical chi square  12.79  with prob <  0.012 
The total n.obs was  315  with Likelihood Chi Square =  15.81  with prob <  0.0033 

Tucker Lewis Index of factoring reliability =  0.938
RMSEA index =  0.097  and the 90 % confidence intervals are  0.05 0.149
BIC =  -7.2
Fit based upon off diagonal values = 0.99
Measures of factor score adequacy             
                                                   ML2  ML1
Correlation of (regression) scores with factors   0.99 1.00
Multiple R square of scores with factors          0.98 1.00
Minimum correlation of possible factor scores     0.96 0.99

Análisis de Clúster


Conclusiones y Bibliografía

Conclusiones

  • Las organizaciones políticas involucradas en corrupción tienden a recibir menos votos.
  • El modelo múltiple mejora la predicción incluyendo factores como educación y urbanización.
  • El análisis factorial muestra agrupamientos temáticos entre variables organizacionales.
  • La clusterización permite identificar perfiles similares de organizaciones políticas.

Bibliografía

  • Jurado Nacional de Elecciones (2018)
  • INEI (2018)
  • Poder Judicial del Perú (2018)
  • R Documentation: ggplot2, factoextra, psych, corrr, cluster
---
title: "Dashboard: Corrupción y Votos en Elecciones Perú 2018"
author: "Ulix Arispe"
date: "`r Sys.Date()`"
output: 
  flexdashboard::flex_dashboard:
    orientation: rows
    vertical_layout: fill
    theme: readable
    source_code: embed
---

# Introducción

### Tema de Investigación

Impacto de los escándalos de corrupción en el desempeño electoral de partidos políticos en elecciones regionales en Perú (2018)

### Justificación del Tema

La corrupción afecta la confianza en las instituciones. Analizar si los votantes penalizan la corrupción electoralmente permite entender el nivel de madurez cívica en contextos democráticos. En el plano práctico, Perú ha atravesado numerosos escándalos de corrupción entre 2011 y 2018, que involucraron tanto a partidos nacionales como a movimientos regionales. Evaluar si esos escándalos afectaron el voto en las elecciones regionales de 2018 ayuda a comprender mejor el comportamiento electoral y la eficacia del control ciudadano.Esta investigación busca explorar si las organizaciones políticas involucradas en corrupción obtienen menor apoyo electoral.

### Variable dependiente  
- Desempeño electoral (**votos_validos**): cantidad de votos válidos obtenidos por organización política

### Variables independientes  
1. Involucramientos en corrupción (involucrado_corrupcion)
2. Antigüedad del partido (antiguedad)
3. Tipo de organización (tipo_organizacion)
4. Participación anterior en elecciones (participacion_previa)
5. Presencia en múltiples regiones (presencia_multiregion)

### Variable de control  
1.	Nivel de urbanización de la región (nivel_urbanizacion)
2.	Tamaño del padrón electoral (padron_electoral)
3.	Nivel de educación promedio regional(educacion_promedio) 


### Pregunta de Investigación

¿Los partidos políticos y movimientos regionales involucrados en escándalos de corrupción obtuvieron peores resultados electorales en las elecciones regionales de 2018 en Perú?

### Hipótesis

Los partidos o movimientos regionales vinculados a escándalos de corrupción previos a 2018 recibieron una menor proporción de votos en las elecciones regionales de ese año, en comparación con aquellos que no estuvieron involucrados.

### Metodología

Se utilizaron técnicas de análisis descriptivo, regresión lineal, análisis factorial y clusterización, a partir de una base consolidada de datos públicos.

## Limpieza de la base de datos

```{r setup, include=FALSE}
library(tidyverse)
library(readr)
library(DT)
library(corrr)
library(cluster)
library(factoextra)
library(psych)
library(GGally)
library(caret)
library(flexdashboard)
```

```{r cargar_datos}
url <- "https://raw.githubusercontent.com/ulixarispe/corrupcion_votos_peru_2018/main/base_consolidada.csv"
data <- read_csv(url)

# Ver columnas
glimpse(data)

# Eliminar NAs y asegurarse de que las variables sean numéricas donde corresponde
data <- data %>% 
  drop_na() %>% 
  mutate(
    involucrado_corrupcion = as.numeric(involucrado_corrupcion),
    antiguedad = as.numeric(antiguedad),
    participacion_previa = as.numeric(participacion_previa),
    presencia_multiregion = as.numeric(presencia_multiregion),
    nivel_urbanizacion = as.numeric(nivel_urbanizacion),
    padron_electoral = as.numeric(padron_electoral),
    educacion_promedio = as.numeric(educacion_promedio),
    votos_validos = as.numeric(votos_validos)
  )
```

---

# Análisis Descriptivo {.icon-chart-bar}

## Distribución de votos válidos

```{r hist-votos}
hist(data$votos_validos, breaks = 30, col = "#2c7fb8", main = "Distribución de votos válidos", xlab = "Votos válidos")
```

## Tabla general

```{r tabla}
datatable(head(data))
```

## Estadísticas generales

```{r resumen}
summary(select(data, votos_validos, involucrado_corrupcion, antiguedad, participacion_previa, educacion_promedio))
```

---

# Análisis Bivariado {.icon-line-chart}

## Correlaciones con votos válidos

```{r correlacion}
corr_data <- data %>%
  select(votos_validos, involucrado_corrupcion, antiguedad, participacion_previa, educacion_promedio, nivel_urbanizacion)

cor_matrix <- correlate(corr_data)
rplot(cor_matrix)
```

## Gráficos de dispersión

```{r dispersión}
ggpairs(corr_data)
```

---

# Modelos de Regresión {.icon-calculator}

## Modelo lineal simple

```{r regresion-simple}
modelo_simple <- lm(votos_validos ~ involucrado_corrupcion, data = data)
summary(modelo_simple)
```

## Modelo múltiple

```{r regresion-multiple}
modelo_multiple <- lm(votos_validos ~ involucrado_corrupcion + antiguedad + participacion_previa + educacion_promedio + nivel_urbanizacion + padron_electoral, data = data)
summary(modelo_multiple)
```

---

# Análisis Factorial y Clúster {.icon-project-diagram}

## Análisis factorial

```{r factorial}
fa_data <- data %>%
  select(involucrado_corrupcion, antiguedad, participacion_previa, educacion_promedio, nivel_urbanizacion, padron_electoral)

fa_result <- fa(fa_data, nfactors = 2, rotate = "varimax", fm = "ml")
fa_result
```

## Análisis de Clúster

```{r cluster}
scaled_data <- scale(fa_data)

set.seed(123)
k_result <- kmeans(scaled_data, centers = 3)

fviz_cluster(k_result, data = scaled_data)
```

---

# Conclusiones y Bibliografía {.icon-book}

## Conclusiones

- Las organizaciones políticas involucradas en corrupción tienden a recibir menos votos.
- El modelo múltiple mejora la predicción incluyendo factores como educación y urbanización.
- El análisis factorial muestra agrupamientos temáticos entre variables organizacionales.
- La clusterización permite identificar perfiles similares de organizaciones políticas.

## Bibliografía

- Jurado Nacional de Elecciones (2018)
- INEI (2018)
- Poder Judicial del Perú (2018)
- R Documentation: `ggplot2`, `factoextra`, `psych`, `corrr`, `cluster`